OTTER: Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation
https://gyazo.com/4dbdcb91a7bb20347b521aeccd47c222
モチベーション
→ バッチ内の負例同士にゆるい相関があった場合, 負例を全て0として学習するのは違うよね
OTTER (Optimal TransporT distillation for Efficient zero-shot Recognition) を提案
loss
$ \mathcal{L}_v = -\frac{1}{N} \sum_{i=1}^N \sum_{j=1}^N [\alpha I_{ij} + (1-\alpha) M^{v}_{ij}\rbrack \log p_v(\mathbf{z}_i^v, \mathbf{z}_j^t;\tau)
とする
イメージは下のような感じ
https://gyazo.com/5b6eed046e6347994b2b78e117761f33
以下の式を解く (ただし最適輸送問題の双対問題となっている)
$ \mathbf{M}^{v*} = \argmax_{\mathbf{M}\in\mathcal{M}} \langle \mathbf{M}, \mathbf{S}^v\rangle_{F} + \lambda H(\mathbf{M}).
$ \mathbf{S}^vはテキストと画像の類似度
$ \mathbf{S}^v = \gamma_{v} \mathbf{\tilde{Z}}^{v\top} \mathbf{\tilde{Z}}^v + \gamma_t \mathbf{\tilde{Z}}^{t\top} \mathbf{\tilde{Z}}^t + \mathbf{\tilde{Z}}^{v\top} \mathbf{\tilde{Z}}^t - \eta \mathbf{I}_N.と定義する
画像の類似度 + テキストの類似度 + テキスト-画像間の類似度 - 単位行列
$ \etaは十分に大きい正の数で, この第四項により対角成分を0にできる
どうやって解くの?
解は次のようになることが知られている
$ \mathbf{M}^{v*} = \text{Diag}(\mathbf{r})\exp(\mathbf{S}^v / \lambda) \text{Diag}(\mathbf{c})